符号音乐的生成依赖于生成模型的上下文表示功能,其中最普遍的方法是基于变压器的模型。音乐背景的学习也与音乐中的结构元素,即介绍,诗歌和合唱有关,这些元素目前被研究界忽略了。在本文中,我们提出了一个分层变压器模型,以学习音乐中的多尺度上下文。在编码阶段,我们首先设计了一个片段范围定位层,以将音乐结合到和弦和部分中。然后,我们使用多尺度的注意机制来学习笔记,和弦和部分级别的上下文。在解码阶段,我们提出了一个层次变压器模型,该模型使用精细编码器并行生成部分和粗编码器来解码组合音乐。我们还设计了音乐风格的标准化层,以在生成的部分之间实现一致的音乐风格。我们的模型在两个开放的MIDI数据集上进行了评估,实验表明我们的模型优于当代音乐生成模型。更令人兴奋的是,视觉评估表明,我们的模型在旋律重复使用方面表现出色,从而产生了更现实的音乐。
translated by 谷歌翻译